実験2: GPT-4Vを使ってDALL-E3で画像を作る(Image to Image)
背景
そこで今回は、画像用のホネホネプロンプトを与え、出力結果にどう影響するかを実験する。
実験方法
情報量の異なる3つの画像を用意する
GPT-4Vに読み込ませ、以下の指示を出す
この画像を基に、以下のパラメータを抽出してください。
この抽出結果は、画像生成AIの入力データ、つまりプロンプトとして、類似画像を生成するために使用します。
また、以下の情報以外に、画像に特筆すべき要素があれば補足してください。
該当する要素がない場合は空欄でお願いします。
例えば風景写真で人物描写が無い場合は、服装や髪型などは無視します。
# この画像のコンセプト
・ジャンル (例:肖像画、風景、ファッション、食品、旅行など)
・被写体 (例:人物、動物、物体など)
・行動/ポーズ (例:座っている、歌っている、走っている)
・感情/表情 (例:困っている、喜んでいる)
・服装 (例:黒いスーツ、白いパーカー)
・背景 (例:空、天気、建物、山、海など)
・シチュエーション (例:時間帯、天気、季節、シーンなど)
# この画像のスタイル
・画風 (例:印象派、写実主義、ロマン主義など)
・技法 (例:水彩画、油絵、フラットデザイン、ピクセルアートなど)
・画質 (例:4K, 8K)
# この画像の構図
・配置とバランス (例:3分割、黄金比)
・焦点と注目点
・視線と動線例: (例:リーディングライン)
・スケールと比率 (例:Forced Perspective)
・対称性と非対称性 (例:対称)
・角度と視点 (例:ワームズアイ・ビュー、バードビュー)
・色とコントラスト (例:カラーコントラスト)
・形状と線 (例:ジオメトリック)
最後に、結果を全て英語に変換して、出力してください。
得られた結果を、DALL-E3に対し打ち込む
再生成を繰り返し(計4回)、得られた画像と元の画像を比較して精度を推定する
Case1. 情報量の少ないシンプルな画像
https://scrapbox.io/files/655952662b412b001c287702.png
結果
https://scrapbox.io/files/65597590961e41001cec5c9a.png
全く異なる画像になってしまった。
色合いなどのスタイルは似ているが、実験1より構成やコンセプトがずれてしまった
実験1の結果
https://scrapbox.io/files/65597e1df8ce63001bb4b1a4.png
Case2. 情報量が普通の画像
https://scrapbox.io/files/65595279a251ab001b53ad25.jpg
結果
https://scrapbox.io/files/655977b17c65f9001b5fdf72.png
構図や被写体、風景などはあっている。画像のスタイルは、実験1よりは近くなった
実験1の結果
https://scrapbox.io/files/655981593b8aed001c1e02b1.png
Case3. 情報量が多い画像
https://scrapbox.io/files/6559529206146d001b94d063.jpg
結果
https://scrapbox.io/files/65597cadf0d190001df4ba23.png
構図や被写体、風景などはあっている。画像のスタイルは、実験1よりは近くなった
実験1の結果
https://scrapbox.io/files/65597d7c2b412b001c29c976.png
考察
実験1よりスタイルは近くなるという結果であった
一方で、Case1ではレモンがなくなったりと、被写体が不正確な画像がある
次の実験では、実験1と実験2のプロンプトを結合させて、同出力結果が変わるかを実験する
その次の実験では、DALL-E3で得られた画像に対し、元画像をGPT-4Vでフィードバックを与えて、どう出力が変わるかを実験する